使用现实世界数据的背景临床研究可能会受益于利用临床报告,这是一种特别丰富的非结构化培养基。为此,自然语言处理可以提取相关信息。使用预训练的语言模型基于转移学习的方法已在大多数NLP应用程序中实现了最先进的方法;但是,公开可用的模型缺乏接触专业语言,尤其是在医学领域。目标我们旨在评估将语言模型适应法国临床报告对下游医疗NLP任务的影响。方法我们利用从2017年8月至2021年7月在大巴黎大学医院(APHP)收集的2100万临床报告的语料库,以生产两种有关专业语言的卡梅蒙德体系结构:一项从Scratch中进行了再培训,另一个以Cammembert作为其初始化。我们使用两个法国注释的医学数据集将我们的语言模型与原始的Camembert网络进行比较,从而评估了Wilcoxon测试改进的统计意义。结果我们在临床报告上预估计的模型将APMED(APHP特定任务)的平均F1分数提高了3个百分点,达到91%,这是统计学上显着的改善。他们还达到了与Quaero上的原始Camembert相当的性能。这些结果适用于很少的预训练样品开始,从而对微调和划痕版本构成了这些结果。结论我们确认以前的文献表明,适应通才培训的语言模型(例如Camenbert on Specialty Corpora)改善了其下游临床NLP任务的性能。我们的结果表明,与微调相比,从头开始进行重新培训不会引起统计学上显着的性能增长。
translated by 谷歌翻译